INTRODUCTION

La récidive carcérale est une problématique majeure pour les systèmes pénitentiaires et judiciaires à travers le monde. Comprendre les dynamiques qui influencent le retour en détention permet d’éclairer les politiques de réinsertion et d’optimiser les ressources allouées à la prévention. Aux États-Unis, l’État de l’Iowa publie chaque année des données détaillées sur les taux de récidive des anciens détenus, offrant une opportunité d’analyse approfondie sur la durée avant réincarcération et les facteurs qui influencent ce phénomène.

Dans ce projet, nous nous intéressons aux données issues du Iowa Department of Corrections sur la récidive carcérale et le taux de réinsertion réussie. Cette base de données suit les individus libérés de prison sur une période de trois ans et indique s’ils ont été réincarcérés pour une nouvelle infraction ou une violation technique de leur libération conditionnelle. L’analyse des durées de survie jusqu’à la réincarcération nous permettra d’examiner les trajectoires post-carcérales et d’évaluer l’efficacité des politiques de réinsertion en place.

PROBLEMATIQUE

Quels sont les facteurs qui influencent la récidive des détenus en Iowa ? Peut-on prédire le moment où un individu a le plus de risque de récidiver après sa sortie de prison ? Et quels modèles statistiques et algorithmes d’apprentissage permettent d’optimiser ces prédictions ?

Ce projet vise à :

  1. Analyser les durées de survie avant la récidive à l’aide d’estimateurs non paramétriques comme Kaplan-Meier et Nelson-Aalen.

  2. Comparer les taux de récidive selon différents groupes d’individus à l’aide du test du log-rank.

  3. Modéliser le risque de réincarcération à l’aide du modèle de Cox semi-paramétrique et/ou de modèles paramétriques adaptés.

  4. Appliquer un algorithme d’apprentissage machine (forêts aléatoires de survie, CoxBoosting ou SVM de survie) afin d’améliorer les prédictions et d’optimiser les décisions de réinsertion.

CADRE D’ANALYSE ET METHODOLOGIE

Ce travail s’appuie sur des méthodes statistiques et de machine learning adaptées aux données de survie :

  1. Exploration et préparation des données
    • Chargement et nettoyage des données de l’Iowa Department of Corrections.
    • Analyse descriptive des cohortes et des taux de récidive.
    • Identification des variables pertinentes pour l’analyse.
  2. Estimation non paramétrique des durées de survie
    • Estimateur de Kaplan-Meier pour visualiser la fonction de survie.
    • Estimateur de Nelson-Aalen pour estimer le risque cumulé de réincarcération.
  3. Test du log-rank
    • Comparaison des courbes de survie entre différents groupes (ex : type de libération, infractions passées, etc.).
    • Détection des différences significatives dans les taux de récidive.
  4. Modélisation du risque de réincarcération
    • Modèle de Cox semi-paramétrique pour identifier les variables explicatives.
    • Modèle paramétrique (ex : Weibull, exponentiel) pour comparer les résultats.
  5. Apprentissage machine pour la prédiction de la récidive
    • Choix d’un algorithme parmi forêts de survie, CoxBoost ou SVM de survie.
    • Optimisation des paramètres via validation croisée K-fold sur le C-index de Harrell.
    • Comparaison des performances prédictives avec le modèle de Cox.
  6. Synthèse et recommandations
    • Identification des principaux facteurs de récidive.
    • Proposition de recommandations pour améliorer les politiques de réinsertion.
    • Discussion des limites des modèles utilisés et perspectives d’amélioration.

Ce projet combinera des outils statistiques classiques et des méthodes modernes d’apprentissage afin d’explorer les trajectoires des anciens détenus en Iowa. En identifiant les facteurs clés de la récidive et en testant différents modèles prédictifs, nous espérons contribuer à une meilleure compréhension du phénomène et offrir des pistes d’amélioration pour la réinsertion des anciens détenus.

Présentation des Variables Les données utilisées dans le cadre de cette étude proviennent principalement de : Accéder aux données de l’Etat d’Iowa aux Etats Unis

Dictionnaire des Données - Iowa Prison Recidivism

1 Exploration et préparation des données

1.1 Chargement des données

Aperçu de la base de données

1.2 Nettoyage et transformation des variables

1.3 Analyse descriptive

1.3.1 Statistiques de base

1.3.2 Visualisation des données

COMMENTAIRE:

Le graphique montre que le taux de récidive global (Recidivism_Rate en bleu) a fortement augmenté en 2021, suivi d’une diminution progressive jusqu’en 2024. Cette tendance est observée à la fois pour les nouveaux crimes (New_Crime en rouge) et les violations techniques (Technical_Violation en vert), bien que les nouveaux crimes soient plus fréquents chaque année. Le pic de 2021 pourrait s’expliquer par la reprise des contrôles judiciaires après la pandémie de COVID-19, tandis que la baisse ensuite suggère une stabilisation ou une amélioration des mesures de réinsertion.

En comparant les types de récidive, les nouveaux crimes restent plus fréquents que les violations techniques sauf en 2021, où les deux sont presque équivalents. Cela pourrait indiquer une pression accrue sur le système de probation cette année-là. La tendance générale montre une diminution continue de la récidive, ce qui pourrait être le résultat de politiques de suivi plus efficaces.

COMMENTAIRE:

  • Distribution des âges: Le graphique montre que la majorité des détenus sont âgés de 25 à 40 ans, avec un pic autour de 30 ans. La distribution est asymétrique vers la droite, indiquant un nombre décroissant de détenus avec l’âge. Très peu de détenus ont plus de 60 ans, ce qui suggère que les jeunes adultes sont les plus représentés dans cette population carcérale.

COMMENTAIRE:

  • Répartition des récidivistes et non-récidivistes: Le nombre de non-récidivistes (en bleu) est nettement supérieur à celui des récidivistes (en rouge). Cela montre que moins de la moitié des libérés récidivent, ce qui pourrait suggérer une efficacité relative des mesures de réinsertion ou une surveillance stricte des récidivistes potentiels.

COMMENTAIRE:

  • Taux de récidive par classe d’infraction: Les taux de récidive varient considérablement selon la classe d’infraction :

Special Sentence 2005 a effectivement le taux de récidive le plus élevé, ce qui suggère que cette peine n’est pas efficace pour prévenir la récidive malgré son intention dissuasive. Viennent ensuite les Felony - Mandatory Minimum et Felony - Enhancement to Original Penalty, montrant que même des peines sévères n’empêchent pas la récidive. Cela peut indiquer un manque de réhabilitation pour ces condamnations. Les Serious Misdemeanor suivent avec un taux de récidive modéré, tandis que les Felony A ont le taux le plus faible, probablement en raison de peines longues réduisant le risque de récidive à court terme. En résumé, les peines spéciales et les crimes avec des pénalités accrues n’empêchent pas la récidive, suggérant une nécessité de revoir les stratégies de réinsertion pour ces groupes. Les crimes graves (Felony A et B), bien que sévères, semblent mieux dissuader la récidive.

COMMENTAIRE:

  • Distribution du Temps de Survie avant Réincarcération: La distribution montre que la majorité des récidives surviennent dans les 10 ou les 15 premiers mois suivant la libération, avec un déclin progressif ensuite. Cela suggère une période critique de vulnérabilité juste après la sortie de prison. Très peu de récidives surviennent après 30 mois, ce qui peut indiquer une stabilisation du comportement des individus restants.

COMMENTAIRE:

  • Taux de récidive par sexe: Les hommes ont un taux de récidive plus élevé que les femmes, bien que l’écart ne soit pas très prononcé. Cela confirme les tendances observées dans d’autres études criminologiques où les hommes sont plus enclins à récidiver. Le taux de non-récidive reste majoritaire pour les deux sexes.

COMMENTAIRE:

  • Taux de récidive par race: Les Asian or Pacific Islander ont le taux de récidive le plus faible, tandis que les American Indian or Alaska Native présentent le taux le plus élevé. Les Blacks, Hispanics, et Whites ont des taux de récidive relativement similaires, avec une légère différence en défaveur des Blacks et Hispanics.

Ces résultats montrent une variation notable selon les groupes raciaux, en particulier pour les American Indian or Alaska Native. Cela pourrait indiquer des différences dans les expériences de réinsertion ou dans les circonstances socio-économiques après la libération. Les Asian or Pacific Islander ayant le taux le plus faible pourraient refléter des différences culturelles ou communautaires favorisant la réintégration.

COMMENTAIRE:

  • Taux de récidive par type de supervision: Les individus sous “Work Release” ont un taux de récidive légèrement plus élevé que ceux libérés après une peine complète en prison. Cela peut indiquer que l’intégration progressive dans la société via le “Work Release” n’est pas toujours suffisante pour prévenir la récidive, ou que ces individus sont plus à risque dès le départ.

COMMENTAIRE:

Répartition des Motifs de Libération
Concernant le graphique ( Répartition des Motifs de Libération), le motif de libération prédominant est la libération conditionnelle (“Parole Granted”, 65.4%), suivi de la fin de peine (“Discharged - Expiration of Sentence”, 19%). Cela montre une dépendance significative au système de libération conditionnelle, ce qui pourrait expliquer un risque accru de récidive si le suivi post-libération est insuffisant. La libération sous “Special Sentence” représente 4.46%, mais son taux de récidive élevé observé dans d’autres graphiques mérite une analyse approfondie pour évaluer l’efficacité de cette mesure.

COMMENTAIRE:

Enfin le graphique (Répartition des Individus Réincarcérés par Type d’Infraction),nous permet de dire que les infractions contre la propriété (Property, 29.4%) et les délits liés à la drogue (Drug, 26.5%) sont les principaux motifs de réincarcération, suivis des crimes violents (Violent, 19.4%). La dominance des délits liés à la propriété et à la drogue suggère que les récidivistes retournent souvent à des crimes liés à des motivations économiques ou à la dépendance. Les violations de l’ordre public (Public Order, 10.4%) et les autres délits (Other, 14.3%) sont moins fréquents, mais indiquent une variété de comportements criminels parmi les récidivistes.

COMMENTAIRE:

Le graphique(Répartition des Individus Réincarcérés par Classe d’Infraction) montre que la majorité des récidivistes ont été réincarcérés pour des infractions de classe D Felony (39.9%) et C Felony (28.5%), suivies des Aggravated Misdemeanor (13.1%). Les infractions plus graves (A Felony, B Felony) représentent une part extrêmement faible, ce qui suggère que les récidivistes ont tendance à commettre des crimes moins graves lors de leurs récidives. Cela pourrait indiquer soit une intensité criminelle réduite, soit une efficacité partielle des programmes de réinsertion.

2 Estimation non paramétrique des durées de survie

2.1 Estimateur de Kaplan-Meier

NB: Dans le cadre de notre étude sur la récidive carcérale en Iowa, nous avons rencontré un défi méthodologique important : la gestion des individus non-récidivistes dans notre analyse de survie. En effet, la base de données fournit une variable survival_months, qui indique la durée avant réincarcération pour les individus ayant récidivé. Cependant, pour les individus n’ayant pas récidivé, cette variable est absente (NA), ce qui pose un problème d’interprétation et d’intégration dans nos modèles de survie.

Pourquoi est-il nécessaire de fixer une durée maximale de suivi ?

L’analyse de survie repose sur l’observation de la durée jusqu’à un événement (ici, la réincarcération). Pour les individus ayant récidivé, survival_months représente cette durée. En revanche, pour les non-récidivistes, nous savons uniquement qu’ils n’ont pas récidivé pendant la période d’étude, sans connaître leur durée exacte d’observation.

Si nous laissons ces valeurs à NA, les modèles de survie (Kaplan-Meier, Nelson-Aalen, ou Cox) ignorent ces individus, ce qui entraîne un biais d’échantillonnage et une sous-estimation des probabilités de survie.

Solution adoptée : Censure à droite avec une durée maximale de suivi

Pour résoudre ce problème, nous avons appliqué une approche courante en analyse de survie, appelée censure à droite, en attribuant aux non-récidivistes une durée d’observation maximale, qui est de 42 mois .

Pourquoi 42 mois ?

Dans notre jeu de données, la durée maximale observée avant récidive est de 36.5 mois. Pour garantir que les non-récidivistes sont bien pris en compte sans introduire d’ambiguïté sur les limites du suivi, nous avons fixé la durée maximale de survie à 42 mois.

Ce choix repose sur les considérations suivantes :

Respect du cadre temporel de l’étude : La période d’observation couvre jusqu’à 3 ans (36 mois) après la sortie de prison, mais il est prudent d’ajouter une légère marge pour éviter des effets de bord.

Garantir une bonne prise en compte des non-récidivistes : En leur attribuant une durée d’observation légèrement supérieure au maximum observé chez les récidivistes, nous évitons d’éliminer des individus censurés de manière arbitraire.

Consistance avec les analyses futures : Cette valeur garantit que l’ensemble des individus sont considérés dans l’analyse tout en maintenant une cohérence avec les données existantes.

Conséquences sur l’interprétation des résultats

Un individu ayant survival_months = X > 36.5 avec reincarcerated = 0 signifie qu’il n’a pas récidivé dans les 3 ans suivant sa sortie.

Un individu ayant survival_months = X < 36.5 avec reincarcerated = 1 signifie qu’il a récidivé après X mois.

Ainsi, notre analyse de survie à l’aide de Kaplan-Meier et Nelson-Aalen reflète correctement la dynamique de récidive au sein des cohortes étudiées.

COMMENTAIRE:

La probabilité de non-récidive diminue progressivement avec le temps, passant de 100% à environ 70% après 27.5 mois, et continue de diminuer par la suite. Cela signifie qu’environ 30% des individus récidivent dans les 2 à 3 ans suivant leur libération. La pente est relativement régulière, montrant un risque de récidive constant sur toute la période, sans point de rupture significatif. Cela suggère que le risque de récidive est présent de manière continue après la libération, nécessitant un suivi prolongé.

2.1.1 Comparaison de groupes: courbe Kaplan-Meier par sexe

COMMENTAIRE:

Les hommes ont une probabilité de non-récidive plus faible que les femmes tout au long de la période observée. Les femmes montrent une meilleure survie sans récidive, avec environ 72% n’ayant pas récidivé après 40 mois, contre 63% pour les hommes. La différence est statistiquement significative, indiquant que le sexe est un facteur prédictif important de la récidive. Cela confirme des tendances criminologiques où les femmes récidivent généralement moins souvent que les hommes.

2.1.2 Comparaison de groupes: courbe Kaplan-Meier par type d’infraction

COMMENTAIRE:

Les infractions “Other” (jaune-marron) présentent la récidive la plus rapide, avec une chute brutale de la probabilité de non-récidive dans les premiers mois. De plus, l’intervalle de confiance est plus large pour ce groupe, indiquant une incertitude plus grande dans l’estimation du risque de récidive. Cela peut être dû à un effectif plus faible ou à une hétérogénéité des infractions classées “Other”. Il serait donc plus pertinent d’avoir des précisions sur la nature exacte des crimes inclus dans cette catégorie.

Les infractions liées aux biens (“Property”, en vert) et aux drogues (“Drug”, en rouge) suivent une tendance similaire, avec une baisse progressive de la probabilité de non-récidive. Toutefois, une inversion se produit après environ 20 mois :

Dans les premiers mois, les infractions contre la propriété récidivent plus vite, probablement car ces crimes sont souvent motivés par des besoins économiques immédiats (ex: vols, cambriolages).

Après environ 20 mois, la situation change : Les infractions liées à la drogue affichent une récidive plus tardive mais plus persistante. Cela pourrait s’expliquer par un effet de rechute progressive dans l’addiction. Certains détenus libérés parviennent initialement à éviter la récidive, mais finissent par rechuter après un certain temps, entraînant de nouvelles infractions liées à la drogue. À l’inverse, les récidivistes liés aux infractions contre la propriété semblent mieux stabiliser leur comportement criminel, soit grâce à une réinsertion réussie, soit via d’autres facteurs sociaux (emploi, famille, suivi judiciaire).

Enfin, les infractions violentes (“Violent”, en violet) et celles contre l’ordre public (“Public Order”, en bleu clair) présentent les meilleures probabilités de non-récidive sur toute la période. Cela signifie que les individus ayant commis ces infractions mettent plus de temps à récidiver, possiblement en raison de peines plus longues ou d’un suivi post-incarcération plus strict.

2.1.3 Comparaison de groupes: courbe Kaplan-Meier par type de supervision

COMMENTAIRE:

Les individus sous Work Release récidivent plus rapidement que ceux libérés directement après leur peine en prison. L’intervalle de confiance du groupe Work Release est plus large, ce qui peut refléter une variabilité plus élevée dans le risque de récidive pour ces individus.

Après 40 mois, la probabilité de non-récidive est plus faible pour le groupe Work Release que pour le groupe Prison, confirmant un risque de récidive plus élevé. En revanche, l’intervalle de confiance plus serré pour le groupe Prison indique une estimation plus stable de la probabilité de non-récidive.

Dès les premiers mois, un écart marqué apparaît entre les deux groupes, suggérant que le programme Work Release n’empêche pas nécessairement une récidive rapide.

Hypothèses et Explications Possibles :

Moins de supervision après Work Release ?
→ Les individus placés en Work Release peuvent bénéficier d’un suivi post-libération moins strict ou rencontrer plus de difficultés d’adaptation après cette transition.

Un profil de détenus plus à risque ?
→ Il est possible que les détenus sélectionnés pour Work Release soient déjà plus à risque de récidiver, expliquant leur taux de récidive plus élevé.

Un impact limité sur la réinsertion ?
→ Le programme Work Release vise à faciliter la réintégration, mais s’il n’améliore pas significativement l’accès à l’emploi ou au logement, cela pourrait expliquer un taux de récidive plus élevé.

Conclusion :

En somme, les détenus sous Work Release récidivent plus rapidement et plus souvent que ceux libérés après avoir purgé leur peine en prison.

L’efficacité du programme Work Release mérite d’être réévaluée : un accompagnement renforcé après la libération pourrait être nécessaire pour réduire le risque de récidive.

Enfin, des études supplémentaires devraient explorer les facteurs expliquant cette différence :
- Est-elle liée au profil des détenus ?
- Au suivi post-libération ?
- À des difficultés spécifiques d’adaptation à la société ?

2.1.4 Comparaison de groupes: courbe Kaplan-Meier par race

COMMENTAIRE:

Les Amérindiens/Alaska Natives ont le taux de récidive le plus rapide, avec une grande variabilité individuelle. Leur faible effectif pourrait influencer cette tendance, nécessitant une analyse plus approfondie.

Les Asiatiques/Insulaires du Pacifique semblent mieux résister à la récidive, mais l’incertitude statistique élevée rend cette conclusion fragile.

Les Noirs, Hispaniques et Blancs suivent une tendance plus stable et comparable, sans écart marquant permettant d’affirmer des différences significatives.

Les sauts observés sur certaines courbes (notamment les Amérindiens/Alaska Natives) suggèrent une récidive en “paliers” plutôt que continue, probablement due à des sous-groupes récidivant soudainement.

Conclusion : Pour ces trois groupes, la survie sans récidive suit une tendance similaire, sans disparités majeures visibles sur cette courbe. Les tendances observées pour les groupes aux effectifs les plus faibles doivent être interprétées avec prudence. Il serait pertinent d’examiner des données supplémentaires pour confirmer ces différences et adapter les politiques de réinsertion en conséquence.

2.2 Estimateur de Nelson-Aalen

COMMENTAIRE:

✔ Un risque de récidive qui s’accumule progressivement : L’augmentation continue du hasard cumulé montre que les anciens détenus restent exposés à un risque de récidive tout au long de la période observée.

✔ Un suivi sur le long terme est nécessaire : Puisque le risque ne se stabilise pas, des politiques de réinsertion doivent être mises en place durablement pour minimiser la récidive.

✔ L’absence de rupture indique une répartition homogène du risque : Il n’y a pas de moment critique où le risque explose ou ralentit, ce qui suggère une nécessité de prévention dès la sortie de prison et sur une période prolongée.

✔ L’intervalle de confiance est stable, garantissant une bonne fiabilité de l’estimation.

✔ Une analyse plus fine des sous-groupes (par type d’infraction, âge, etc.) pourrait révéler des différences dans le rythme de récidive, permettant d’ajuster les politiques de réinsertion en fonction des profils les plus vulnérables.

NB: Vous trouverez en annexe l’Estimateur de Nelson-Aalen de la fonction de risque cumulé par groupe.

2.3 Test du log-rank

L’analyse de survie menée sur la récidive des anciens détenus a révélé des écarts significatifs entre certains groupes, notamment en fonction du sexe et de l’origine raciale. Pour vérifier si ces différences sont statistiquement significatives, nous avons retenu l’application de tests du log-rank sur deux comparaisons clés : hommes vs femmes et différentes races.

La comparaison entre hommes et femmes est justifiée par l’observation d’un risque cumulé de récidive plus élevé chez les hommes. Le test du log-rank permettra de confirmer si ces différences sont réelles et non dues au hasard, et ainsi d’orienter les politiques de réinsertion différenciées en fonction du sexe.

La comparaison entre groupes raciaux vise à détecter d’éventuelles inégalités structurelles dans la récidive. Nos analyses ont montré que les Amérindiens/Alaska Natives présentent un risque de récidive beaucoup plus élevé, tandis que les Blancs et Asiatiques récidivent moins. Vérifier statistiquement ces écarts permettrait de justifier des réformes ciblées pour améliorer la réinsertion des groupes les plus vulnérables.

Si les résultats des tests du log-rank confirment que ces différences sont significatives, cela donnerait des bases solides pour adapter les programmes de suivi post-libération, améliorer l’accompagnement social des détenus à risque, et réduire les inégalités dans la réinsertion. En somme, ces tests apporteraient des éléments concrets pour guider des politiques publiques plus efficaces dans la prévention de la récidive.

2.4 Test du log-rank par sexe

## Call:
## survdiff(formula = Surv(survival_months, reincarcerated) ~ sex, 
##     data = iowa_data)
## 
##               N Observed Expected (O-E)^2/E (O-E)^2/V
## sex=Female  425      120      163     11.15        13
## sex=Male   2747     1016      973      1.86        13
## 
##  Chisq= 13  on 1 degrees of freedom, p= 3e-04

INTERPRETATION:

Le test du log-rank confirme que la différence de récidive entre hommes et femmes est statistiquement significative (p < 0.05). Les femmes ont une probabilité de récidive plus faible que les hommes, comme l’avaient déjà suggéré les analyses graphiques. L’écart observé ne pouvant être attribué au hasard, cela justifie l’adoption de politiques de réinsertion différenciées selon le sexe afin d’optimiser la prévention de la récidive.

Ces résultats soulignent l’importance d’un suivi post-libération renforcé pour les hommes, dont le risque de récidive est significativement plus élevé. À l’inverse, les femmes pourraient bénéficier de programmes d’accompagnement adaptés, tenant compte des facteurs influençant leur meilleure survie sans récidive. L’adaptation des politiques de réinsertion en fonction du sexe apparaît ainsi comme une mesure nécessaire pour réduire efficacement la récidive et améliorer la réinsertion des anciens détenus.

2.5 Test du log-rank par race

## Call:
## survdiff(formula = Surv(survival_months, reincarcerated) ~ race, 
##     data = iowa_data)
## 
##                                          N Observed Expected (O-E)^2/E
## race=American Indian or Alaska Native   75       34     25.0    3.2173
## race=Asian or Pacific Islander          26        7     10.0    0.9068
## race=Black                             655      241    237.2    0.0600
## race=Hispanic                          170       63     61.9    0.0209
## race=White                            2246      791    801.9    0.1474
##                                       (O-E)^2/V
## race=American Indian or Alaska Native    3.2945
## race=Asian or Pacific Islander           0.9160
## race=Black                               0.0760
## race=Hispanic                            0.0221
## race=White                               0.5017
## 
##  Chisq= 4.4  on 4 degrees of freedom, p= 0.4

INTERPRETATION:

Le test du log-rank pour la comparaison des races montre que les différences de récidive entre groupes raciaux ne sont pas statistiquement significatives (p = 0.4). Bien que les Amérindiens/Alaska Natives aient un taux de récidive observé plus élevé que prévu, et que d’autres groupes présentent de légers écarts, ces variations ne sont pas assez marquées pour être considérées comme non dues au hasard.

Ainsi, on ne peut pas conclure que la race influence directement la récidive. D’autres facteurs, comme le type d’infraction, le suivi post-libération ou les conditions de réinsertion, pourraient être plus déterminants. Une analyse plus approfondie via un modèle de Cox multivarié pourrait aider à identifier les véritables facteurs de risque de récidive.

3 Modélisation du risque de réincarcération

3.1 Modèle de Cox semi-paramétrique

## Call:
## coxph(formula = Surv(survival_months, reincarcerated) ~ sex + 
##     race + age + offense_type + supervision_type, data = iowa_data)
## 
##   n= 3172, number of events= 1136 
## 
##                                    coef exp(coef)  se(coef)      z Pr(>|z|)    
## sexMale                        0.377157  1.458133  0.098293  3.837 0.000125 ***
## raceAsian or Pacific Islander -0.498171  0.607641  0.415508 -1.199 0.230549    
## raceBlack                     -0.308994  0.734185  0.183467 -1.684 0.092144 .  
## raceHispanic                  -0.205681  0.814093  0.213232 -0.965 0.334750    
## raceWhite                     -0.262241  0.769326  0.175253 -1.496 0.134561    
## age                           -0.019382  0.980805  0.003081 -6.290 3.17e-10 ***
## offense_typeOther              0.542137  1.719679  0.098608  5.498 3.84e-08 ***
## offense_typeProperty          -0.091865  0.912228  0.080706 -1.138 0.255010    
## offense_typePublic Order      -0.246768  0.781322  0.109061 -2.263 0.023657 *  
## offense_typeViolent           -0.424295  0.654231  0.089616 -4.735 2.20e-06 ***
## supervision_typeWork Release   0.318002  1.374379  0.065621  4.846 1.26e-06 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
##                               exp(coef) exp(-coef) lower .95 upper .95
## sexMale                          1.4581     0.6858    1.2026    1.7679
## raceAsian or Pacific Islander    0.6076     1.6457    0.2691    1.3719
## raceBlack                        0.7342     1.3621    0.5124    1.0519
## raceHispanic                     0.8141     1.2284    0.5360    1.2365
## raceWhite                        0.7693     1.2998    0.5457    1.0846
## age                              0.9808     1.0196    0.9749    0.9867
## offense_typeOther                1.7197     0.5815    1.4175    2.0863
## offense_typeProperty             0.9122     1.0962    0.7788    1.0686
## offense_typePublic Order         0.7813     1.2799    0.6310    0.9675
## offense_typeViolent              0.6542     1.5285    0.5488    0.7799
## supervision_typeWork Release     1.3744     0.7276    1.2085    1.5630
## 
## Concordance= 0.601  (se = 0.008 )
## Likelihood ratio test= 152.9  on 11 df,   p=<2e-16
## Wald test            = 153.5  on 11 df,   p=<2e-16
## Score (logrank) test = 156.8  on 11 df,   p=<2e-16

INTERPRETATION:

Le modèle de Cox estime l’impact de plusieurs variables (sexe, race, âge, type d’infraction, type de supervision) sur le risque de récidive. L’interprétation des coefficients (coef) et des rapports de risque (exp(coef)) permet d’identifier les facteurs influençant significativement la récidive.

Facteurs augmentant significativement le risque de récidive :

Le sexe masculin (HR = 1.46, p < 0.001) → Un homme a un risque de récidive de 46% plus élevé qu’une femme, ce qui confirme la nécessité d’un suivi renforcé des hommes après libération.

Le type d’infraction “Other” (HR = 1.72, p < 0.001) → Les individus ayant commis une infraction classée “Other” ont un risque de récidive 72% plus élevé que ceux ayant commis une infraction de classe “Drug”, ce qui suggère qu’ils sont plus vulnérables à la rechute.

Le type de supervision “Work Release” (HR = 1.37, p < 0.001) → Les individus libérés sous Work Release ont un risque de récidive 37% plus élevé que ceux libérés après une peine complète en prison, indiquant que ce programme pourrait nécessiter une révision pour améliorer son efficacité.

Facteurs réduisant significativement le risque de récidive :

L’âge (HR = 0.98, p < 0.001) → Chaque année supplémentaire réduit le risque de récidive de 2%. Ainsi, un écart d’une décennie entre deux individus diminue le risque de près de 18% (exp(-0.019 * 10) = 0.82). Cela souligne l’importance de stratégies de réinsertion spécifiques aux jeunes détenus, qui sont plus enclins à récidiver.

Les infractions contre l’ordre public (HR = 0.78, p < 0.05) et les infractions violentes (HR = 0.65, p < 0.001) sont associées à un risque de récidive plus faible par rapport à la catégorie de référence. Cela pourrait s’expliquer par des peines plus longues et un suivi post-incarcération plus strict pour ces types de crimes.

Facteurs non significatifs :
La race n’a pas d’effet significatif sur la récidive (p > 0.05 pour toutes les catégories raciales), suggérant que les différences observées dans les courbes de survie ne sont pas directement liées à la race une fois ajustées pour d’autres variables. Les infractions liées à la propriété ne montrent pas d’impact significatif sur la récidive.

Le modèle de Cox confirme que le sexe et le type de supervision sont des facteurs déterminants de la récidive, avec un risque accru pour les hommes et les détenus en Work Release, justifiant ainsi des politiques de suivi renforcé pour ces groupes. L’âge joue un rôle protecteur, les détenus plus âgés ayant un risque de récidive plus faible, ce qui suggère que les stratégies de réinsertion devraient cibler en priorité les plus jeunes. Le type d’infraction influence également la récidive : les infractions classées “Other” présentent le risque le plus élevé, tandis que les infractions violentes et celles contre l’ordre public sont associées à un risque plus faible. En revanche, la race n’a pas d’effet significatif sur la récidive, remettant en question l’hypothèse de disparités raciales après ajustement pour d’autres variables.

3.1.1 Vérification de l’hypothèse des risques proportionnels

Le modèle de Cox suppose que les effets des covariables ne varient pas dans le temps. On teste cela avec les résidus de Schoenfeld.

##                   chisq df      p
## sex               2.036  1 0.1536
## race              9.317  4 0.0536
## age               0.378  1 0.5389
## offense_type      7.198  4 0.1258
## supervision_type  6.309  1 0.0120
## GLOBAL           26.380 11 0.0057

INTERPRETATION:

Le test de Schoenfeld examine si les effets des covariables restent constants dans le temps. Si p < 0.05, l’hypothèse des risques proportionnels est violée pour cette variable

Sex, âge et offense type respectent l’hypothèse → OK 👍

Race est limite (p = 0.0536) → On peut tester avec un effet temps-dépendant

Supervision type viole l’hypothèse (p = 0.0120) → Il faut modifier le modèle

Le test global (p = 0.0057) est significatif → Il y a au moins une violation

Cox semi-paramétrique est problématique, car au moins une variable viole l’hypothèse.

Conclusion : Faut-il garder Cox ou passer à un modèle paramétrique ?

Comme l’hypothèse des risques proportionnels est violée, on peut tester un modèle paramétrique, en particulier Weibull.

3.2 Modèle paramétrique

3.2.1 Modèle Weibull

## 
## Call:
## survreg(formula = Surv(survival_months, reincarcerated) ~ sex + 
##     race + age + offense_type + supervision_type, data = iowa_data, 
##     dist = "weibull")
##                                   Value Std. Error     z       p
## (Intercept)                    3.856713   0.226288 17.04 < 2e-16
## sexMale                       -0.382022   0.098629 -3.87 0.00011
## raceAsian or Pacific Islander  0.511410   0.415309  1.23 0.21817
## raceBlack                      0.317416   0.183402  1.73 0.08350
## raceHispanic                   0.212189   0.213076  1.00 0.31933
## raceWhite                      0.274674   0.175196  1.57 0.11693
## age                            0.019734   0.003110  6.35 2.2e-10
## offense_typeOther             -0.549399   0.099268 -5.53 3.1e-08
## offense_typeProperty           0.097655   0.080649  1.21 0.22594
## offense_typePublic Order       0.252851   0.109103  2.32 0.02047
## offense_typeViolent            0.436382   0.090123  4.84 1.3e-06
## supervision_typeWork Release  -0.321360   0.065964 -4.87 1.1e-06
## Log(scale)                    -0.000882   0.027664 -0.03 0.97456
## 
## Scale= 0.999 
## 
## Weibull distribution
## Loglik(model)= -6191.8   Loglik(intercept only)= -6271.3
##  Chisq= 159.03 on 11 degrees of freedom, p= 2.1e-28 
## Number of Newton-Raphson Iterations: 5 
## n= 3172

INTERPRETATION:

Le modèle de survie paramétrique ajusté utilise une distribution de Weibull pour estimer l’effet des variables explicatives sur le temps avant la récidive. Contrairement au modèle de Cox, qui est semi-paramétrique, ce modèle suppose une structure paramétrique spécifique pour la durée de survie, ce qui permet d’obtenir des estimations plus précises sur la forme du risque de récidive au fil du temps.

Facteurs augmentant le temps avant récidive (effet protecteur, coefficients positifs)
Certaines variables sont associées à un temps de récidive plus long, indiquant qu’elles ralentissent le processus de réincarcération. L’âge est un facteur clé (coef = 0.0197, p < 0.001) : chaque année supplémentaire augmente significativement le temps avant récidive, confirmant que les détenus plus âgés ont un risque plus faible de retourner en prison rapidement. De plus, les individus ayant commis des infractions violentes (coef = 0.4364, p < 0.001) ou des infractions contre l’ordre public (coef = 0.2529, p < 0.05) mettent plus de temps avant de récidiver. Cette tendance peut être expliquée par des peines plus longues et un suivi post-libération plus strict pour ces infractions.

Facteurs réduisant le temps avant récidive (effet accélérateur, coefficients négatifs)
À l’inverse, certaines variables sont associées à une récidive plus rapide. Être un homme (coef = -0.3820, p < 0.001) réduit significativement le temps avant récidive, confirmant que les hommes récidivent plus vite que les femmes. De même, les individus ayant commis des infractions classées “Other” (coef = -0.5494, p < 0.001) sont plus susceptibles de récidiver rapidement, ce qui souligne l’importance d’un suivi renforcé pour ces détenus. Enfin, les détenus sous Work Release (coef = -0.3214, p < 0.001) récidivent plus rapidement que ceux libérés après une peine complète, ce qui remet en question l’efficacité du programme et suggère un besoin d’amélioration dans l’accompagnement post-libération.

Facteurs non significatifs (p > 0.05)
Certaines variables n’ont pas d’effet significatif sur le temps avant récidive. La race ne semble pas influencer le délai de récidive, ce qui confirme les résultats du modèle de Cox où les différences raciales observées dans les courbes de survie ne sont pas statistiquement significatives après ajustement pour d’autres variables. De plus, les infractions contre la propriété n’affectent pas significativement le temps avant récidive, ce qui suggère que leur impact est similaire à celui de la catégorie de référence.

Analyse de la distribution et de la qualité du modèle
Le paramètre de l’échelle (scale = 0.999) est proche de 1, indiquant que le taux de récidive reste relativement constant dans le temps et ne présente pas d’accélération ou de ralentissement significatif après libération. Le test du Chi² (p < 0.001) confirme que le modèle est globalement significatif, validant l’importance des variables incluses dans l’explication du temps avant récidive.

Conclusion et Implications
Ce modèle de Weibull met en évidence plusieurs facteurs influençant le temps avant récidive. Les hommes, les individus en Work Release et ceux ayant commis des infractions “Other” récidivent plus rapidement, ce qui souligne l’importance de politiques de suivi post-libération adaptées à ces groupes. Les détenus plus âgés, ceux ayant commis des infractions violentes ou contre l’ordre public mettent plus de temps à récidiver, possiblement en raison de peines plus longues et d’un suivi plus strict. La race ne semble pas être un facteur déterminant du temps avant récidive, ce qui suggère que d’autres variables, comme les conditions de réinsertion, jouent un rôle plus important.

NB: Vous trouverez en annexe d’autres tests à titre exploratoire.

4 Apprentissage machine pour la prédiction de la récidive

4.1 Forêt Aléatoire de survie

##                          Sample size: 3172
##                     Number of deaths: 1136
##                      Number of trees: 1000
##            Forest terminal node size: 15
##        Average no. of terminal nodes: 140.619
## No. of variables tried at each split: 3
##               Total no. of variables: 5
##        Resampling used to grow trees: swor
##     Resample size used to grow trees: 2005
##                             Analysis: RSF
##                               Family: surv
##                       Splitting rule: logrank *random*
##        Number of random split points: 5
##                           (OOB) CRPS: 5.25723921
##                    (OOB) stand. CRPS: 0.14403395
##    (OOB) Requested performance error: 0.42638329

Les modèles traditionnels de survie, comme Kaplan-Meier ou le modèle de Cox, offrent une bonne capacité explicative et descriptive. Cependant, leurs performances peuvent être limitées lorsqu’il s’agit de données non linéaires. Pour surmonter ces limitations, les algorithmes d’apprentissage automatique constituent une alternative efficace, permettant de mieux capturer la complexité et la non-linéarité des données.

Dans notre étude, nous avons utilisé l’algorithme des Forêts Aléatoires de Survie (RSF) afin de mieux prédire le risque de récidive d’un individu. Une telle approche permettrait d’adapter plus finement les politiques de réinsertion en fonction des caractéristiques spécifiques de chaque personne.

INTERPRETATION du modèle:

Dans ce modèle, nous disposons de 3172 observations, dont 1136 individus ayant récidivé. La forêt aléatoire est composée de 1000 arbres, chacun contenant en moyenne 140 à 141 feuilles, avec environ 15 individus par feuille.

L’erreur de prédiction, mesurée par l’erreur Out-Of-Bag (OOB), est de 0,426, ce qui indique que le modèle fournit des prédictions significativement meilleures qu’un choix aléatoire.

Le graphique ci-dessus permet de visualiser l’erreur de prédiction en fonction du nombre d’arbres dans le modèle, ainsi que l’importance des variables.

À l’exception de la variable race, qui présente une importance négative, toutes les autres variables ont une importance positive. Parmi elles, la variable offense_type se distingue comme la plus influente. La structure de cette importance vient confirmer le test des risques proportionnels que nous avions fait plus haut dans le modèle de COX.

En ce qui concerne l’évolution de l’erreur, nous observons une fluctuation autour de 0,426, avec une baisse jusqu’à 600 arbres, suivie d’une légère augmentation par la suite.

Afin d’améliorer la qualité de notre modèle, nous allons procéder à une validation croisée afin d’identifier les meilleurs hyper-paramètres.

4.2 Optimisation par validation croisée K-Fold

les meilleurs hyperparamètre
ntree mtry nodesize MeanOOB
19 200 2 15 0.4245309

La validation croisé nous permet d’identifier les hyper-paramètres suivant :

  • ntree (nombre d’arbres) -> 200
  • mtry (le nombre de variable testées à chaque split) -> 2
  • nodesize (nombre d’individus dans les nœuds terminaux) -> 15

Notre modèle final est alors construit en tenant compte de ces hyper-paramètres

##                          Sample size: 3172
##                     Number of deaths: 1136
##                      Number of trees: 200
##            Forest terminal node size: 15
##        Average no. of terminal nodes: 129.055
## No. of variables tried at each split: 2
##               Total no. of variables: 5
##        Resampling used to grow trees: swor
##     Resample size used to grow trees: 2005
##                             Analysis: RSF
##                               Family: surv
##                       Splitting rule: logrank *random*
##        Number of random split points: 5
##                           (OOB) CRPS: 5.22143404
##                    (OOB) stand. CRPS: 0.14305299
##    (OOB) Requested performance error: 0.42360873

Comme nous le montre la sortie R du modèle, nous avons réussi à réduire l’erreur de prédiction à 0,424, bien que cette amélioration soit de l’ordre du troisième décimal.

Avec une erreur de prédiction inférieur à 0,5, ce modèle a une meilleure prédiction que ce que peut faire le hasard pure (erreur de prédiction de 0,5).

L’analyse du graphique ci-dessus montre que la courbe de survie de la Forêt Aléatoire de Survie n’est pas linéaire, contrairement à celle du modèle de Kaplan-Meier. Elle décroît par paliers jusqu’à 0,84, contre environ 0,65 pour la courbe de survie de Kaplan-Meier.

Cette différence s’explique par le fait que l’algorithme des Forêts Aléatoires de Survie prend en compte un plus grand nombre de variables caractéristiques des individus dans la modélisation.

5 Choix du meilleur modèle et réentrainement

5.1 La comparaison des C-index des modèle

C-Index du modèle de COX, de Weibull et de RSF
C_index_COX C_index_Weibull C_index_RSF
0.598 0.598 0.575

Après avoir analysé la significativité et l’importance des variables, ainsi qu’estimé les hyperparamètres du modèle de forêt aléatoire de survie, nous avons entraîné trois modèles distincts : un modèle de Cox, un modèle de Weibull et un modèle de forêt aléatoire de survie.

L’analyse du tableau des C-index des modèles montre que, parmi les trois, la Forêt Aléatoire de Survie présente la plus faible qualité prédictive (C_index = 0.575). En revanche, avec un (C-index = 0.598), les modèles de Cox et de Weibull affichent des performances similaires.

5.2 La comparaison des AIC des modèle

L’AIC du modèle de COX et de Weibull
df AIC
cox_model 7 15964.05
weibull_model 9 11299.09

Étant donné que les modèles de Cox et de Weibull présentent des performances similaires en termes de C-index, nous avons comparé leurs AIC. Le modèle de Weibull, affichant l’AIC le plus faible, semble offrir une meilleure adéquation aux données. Nous avons donc choisi de le conserver.

5.3 Le modèle final

## 
## Call:
## survreg(formula = Surv(survival_months, reincarcerated) ~ ., 
##     data = don_train, dist = "weibull")
##                                 Value Std. Error     z       p
## (Intercept)                   4.04922    0.15908 25.45 < 2e-16
## sexMale                      -0.31487    0.10176 -3.09   0.002
## age                           0.01965    0.00320  6.14 8.3e-10
## offense_typeOther            -0.55027    0.10251 -5.37 8.0e-08
## offense_typeProperty          0.12432    0.08427  1.48   0.140
## offense_typePublic Order      0.21793    0.11141  1.96   0.050
## offense_typeViolent           0.43141    0.09315  4.63 3.6e-06
## supervision_typeWork Release -0.33013    0.06850 -4.82 1.4e-06
## Log(scale)                   -0.00709    0.02891 -0.25   0.806
## 
## Scale= 0.993 
## 
## Weibull distribution
## Loglik(model)= -5640.5   Loglik(intercept only)= -5710.3
##  Chisq= 139.46 on 7 degrees of freedom, p= 6.6e-27 
## Number of Newton-Raphson Iterations: 5 
## n= 2854

Pour estimer ce modèle, nous avons sélectionné uniquement les variables que nous jugeons pertinentes, à savoir le sexe (sex), l’âge (age), le type d’infraction (offense_type) et le type de supervision (supervision_type).

  • La qualité du modèle

La encore, le paramètre de l’échelle (scale = 0.993) est proche de 1, indiquant que le taux de récidive reste relativement constant dans le temps. Ce paramètre d’echelle montre également que la distribution des temps de survie ressemble fortement à une loi exponentielle. Le test du Chi² (p << 0.05) confirme que le modèle est globalement significatif.

Les coefficients de ce modèle confirme ce que nous avions vu dans le modèle de Weibull plus haut. Nous pouvons distinguer les facteurs suivant. Nous pouvons distinguer les facteurs comme l’âge (plus l’âge augmente, moins les individus récidivent), les infractions du type violentes, infractions contre l’ordre public et les infractions contre la propriété qui ont un temps de récidive plus long par rapport au type d’infraction Drug.

Pour les facteurs qui réduisent le temps avant le récidive, nous pouvons distinguer les facteurs comme le sexe male (réduit le temps de récidiver par rapport au sexe femele), les infractions du type “Other” (réduit le temps de récidiver par rapport au type d’infraction Drug), et enfin, les détenus sous Work Release récidivent plus rapidement que ceux libérés après une peine complète.

6 Conclusion

La gestion de la récidive carcérale est un défi complexe, mais l’identification des facteurs influençant la réincarcération peut aider les décideurs à mieux orienter leurs politiques afin de réduire le taux de retour en prison.

Le modèle de Weibull, que nous avons sélectionné, présente à la fois un intérêt explicatif et prédictif. D’un côté, son aspect explicatif permet aux décideurs d’identifier des tendances générales et d’adapter les politiques de réinsertion en fonction des profils types. D’un autre côté, son aspect prédictif offre la possibilité de personnaliser les interventions en fonction des caractéristiques individuelles des détenus.

Nos analyses montrent que certains facteurs augmentent significativement le risque de récidive. En particulier, les individus de sexe masculin, ceux ayant commis une infraction classée dans la catégorie Other, ainsi que les détenus sous le régime de Work Release, ont une probabilité plus élevée de récidiver rapidement. À l’inverse, les femmes semblent avoir un risque plus faible de retour en détention.

Toutefois, cette étude a rencontré certaines limites méthodologiques, notamment la présence de valeurs manquantes pour la durée de suivi des individus n’ayant pas récidivé, ce qui a pu impacter la robustesse des estimations.

En termes de qualité des modèles, les C-index obtenus sont globalement autour de 0,60 (inférieurs à 0,70). Cela indique que les modèles prédissent mieux que le hasard, mais avec une précision encore perfectible. Des approches plus avancées, comme les modèles de survie avec variables latentes ou l’intégration d’algorithmes d’apprentissage profond, pourraient être explorées pour améliorer ces performances.

7 Annexe

7.1 Estimateur de Nelson-Aalen

7.1.1 Comparaison de groupes: estimateur de Nelson-Aalen par sexe

COMMENTAIRE:

Les hommes (courbe rouge) présentent un risque cumulé de récidive plus élevé que les femmes (courbe noire) sur toute la période. À 40 mois, le risque cumulé atteint environ 0.42 pour les hommes contre 0.28 pour les femmes, confirmant une plus forte propension des hommes à récidiver. L’écart entre les deux courbes se creuse avec le temps, suggérant que la différence de récidive entre sexes s’accentue progressivement après la libération.

7.1.2 Comparaison de groupes: estimateur de Nelson-Aalen par type d’infraction

COMMENTAIRE:

Les infractions “Other” (rouge) présentent le risque cumulé de récidive le plus élevé, dépassant 0.65 à 40 mois, indiquant une récidive plus rapide et plus fréquente. De manière générale, Les infractions “Other” et celles liées aux biens ou aux drogues sont les plus associées à la récidive, tandis que les infractions violentes récidivent le moins.

7.1.3 Comparaison de groupes: estimateur de Nelson-Aalen par type de supervision

COMMENTAIRE:

Les détenus en Work Release récidivent plus vite et plus souvent, suggérant un besoin d’un suivi post-libération renforcé.

7.1.4 Comparaison de groupes: estimateur de Nelson-Aalen par race

COMMENTAIRE:

Les Amérindiens/Alaska Natives (noir) présentent le risque cumulé de récidive le plus élevé, atteignant environ 0.6 à 40 mois, ce qui indique une récidive plus fréquente et rapide. Les Asiatiques/Insulaires du Pacifique (rouge) ont le risque cumulé de récidive le plus faible, ce qui suggère une meilleure réinsertion ou un suivi plus efficace. Les sauts marqués chez les Amérindiens/Alaska Natives et Les Asiatiques/Insulaires du Pacifique montrent une concentration d’événements de récidive à des moments spécifiques, ce qui peut être lié à des facteurs structurels (ex: fin de probation, manque de suivi social).

7.2 Test de wilcoxon par sexe

## Call:
## survdiff(formula = Surv(survival_months, reincarcerated) ~ sex, 
##     data = iowa_data, rho = 1)
## 
##               N Observed Expected (O-E)^2/E (O-E)^2/V
## sex=Female  425     96.5      133      9.99        14
## sex=Male   2747    836.9      800      1.66        14
## 
##  Chisq= 14  on 1 degrees of freedom, p= 2e-04

7.3 Test de wilcoxon par race

## Call:
## survdiff(formula = Surv(survival_months, reincarcerated) ~ race, 
##     data = iowa_data, rho = 1)
## 
##                                          N Observed Expected (O-E)^2/E
## race=American Indian or Alaska Native   75    28.02    20.71  2.583742
## race=Asian or Pacific Islander          26     5.59     8.22  0.840321
## race=Black                             655   194.58   195.01  0.000947
## race=Hispanic                          170    50.58    50.82  0.001130
## race=White                            2246   654.60   658.62  0.024504
##                                       (O-E)^2/V
## race=American Indian or Alaska Native   3.14956
## race=Asian or Pacific Islander          1.01803
## race=Black                              0.00144
## race=Hispanic                           0.00143
## race=White                              0.09983
## 
##  Chisq= 4.1  on 4 degrees of freedom, p= 0.4

7.3.1 Modèle exponentiel

## 
## Call:
## survreg(formula = Surv(survival_months, reincarcerated) ~ sex + 
##     race + age + offense_type + supervision_type, data = iowa_data, 
##     dist = "exponential")
##                                  Value Std. Error     z       p
## (Intercept)                    3.85703    0.22626 17.05 < 2e-16
## sexMale                       -0.38231    0.09829 -3.89  0.0001
## raceAsian or Pacific Islander  0.51179    0.41550  1.23  0.2180
## raceBlack                      0.31763    0.18344  1.73  0.0834
## raceHispanic                   0.21233    0.21322  1.00  0.3193
## raceWhite                      0.27487    0.17525  1.57  0.1168
## age                            0.01975    0.00308  6.42 1.4e-10
## offense_typeOther             -0.54979    0.09861 -5.58 2.5e-08
## offense_typeProperty           0.09772    0.08069  1.21  0.2259
## offense_typePublic Order       0.25304    0.10904  2.32  0.0203
## offense_typeViolent            0.43672    0.08957  4.88 1.1e-06
## supervision_typeWork Release  -0.32159    0.06561 -4.90 9.5e-07
## 
## Scale fixed at 1 
## 
## Exponential distribution
## Loglik(model)= -6191.8   Loglik(intercept only)= -6271.5
##  Chisq= 159.4 on 11 degrees of freedom, p= 1.8e-28 
## Number of Newton-Raphson Iterations: 5 
## n= 3172

7.3.2 Comparaison des AIC des models: exponetiels vs Weibull

##               df      AIC
## weibull_model  9 11299.09
## exp_model     12 12407.58

COMMENTAIRE:

L’Akaike Information Criterion (AIC) est une mesure qui permet de comparer la qualité de plusieurs modèles statistiques : plus l’AIC est faible, meilleur est le modèle en termes de compromis entre ajustement et complexité.

Le modèle exponentiel présente un AIC légèrement plus faible que le modèle de Weibull, ce qui indique qu’il s’ajuste légèrement mieux aux données tout en étant plus simple (il a 12 degrés de liberté contre 13 pour Weibull). Toutefois, la différence d’AIC entre les deux modèles est minime (~2 points), ce qui signifie que les performances des deux modèles sont très proches.

Conclusion : Le modèle exponentiel est légèrement préféré, mais la faible différence d’AIC suggère que le modèle de Weibull reste une alternative valide, notamment si l’on suspecte que le taux de récidive varie avec le temps (ce que Weibull permet de modéliser).